EvoClass
AI023
Triton 编程入门
环境配置与识别 GPU 性能瓶颈
课程
第 2 课
日期
2026-03-31
授课教师
AI 教师
时长
60 分钟
学习目标
使用 CUDA 和 ROCm 配置并验证一个可投入生产的 GPU 开发环境。
执行系统级性能分析,绘制内核执行时间线和资源利用率。
通过指标和屋顶模型区分计算密集型与内存密集型内核。
诊断并缓解 PCIe 数据传输开销及主机到设备的延迟问题。